[新機能] AWS Glue Data Catalog の Apache Icebergテーブルの自動最適化機能がVPC対応したので試してみました
AWS事業本部コンサルティング部の石川です。AWS Glue Data Catalog の Apache Icebergテーブルの自動最適化機能がVPC対応したので試してみました。
Apache Icebergテーブルの自動最適化機能がVPC対応とは
AWS Glue Data Catalogは、Apache Icebergテーブルの自動最適化機能を提供し、データの圧縮、スナップショット管理、孤立(Orphan)データの処理などを行います。この機能により、日々のIcebergテーブルのメンテナンスタスクが簡素化されました。その機能については、過去のブログで紹介しています。
しかし、インターネット経由のデータレイクへのアクセスを許可しない環境(境界型セキュリティ)の場合、Icebergテーブルのデータを保存しているS3のバケットポリシーで、アクセス経路やプリンシパルを制限します。この場合、基本パブリックサービスであるGlue は、テーブルの最適化ができなくなっていました。そこで登場したのが、本日ご紹介する Apache Icebergテーブルの自動最適化機能がVPC対応です。
特定のVPC環境からのみアクセス可能なApache Icebergテーブルの自動最適化により、セキュリティを維持しながらストレージの最適化とクエリパフォーマンスの向上が可能になります。
新しい AWS Glue Data Catalog の「Network」という Connections の作成
Apache Icebergテーブルの自動最適化機能がVPC対応を仕組みは、AWS Glue Data Catalog に新たに「Network」という Connections が導入され、テーブルの自動最適化機能に設定できるようになりました。
Connectionsの作成は、Data Catalog のメニューの Connections を選択して作成します。数多くの Connections がありますので、検索で「network」と入力して、Network の コネクションを選択しています。
接続を許可しているVPC、Subnet、Security Group を選択します。
ここで、Connectionsの名前を設定します。
[Create connection] を押すと作成完了です。
テーブルの自動最適化機能のVPC対応を試す
今回の検証環境は、AWSの関山さんも共同執筆している AWS Big Data Blog 「AWS Glue Data Catalog supports automatic optimization of Apache Iceberg tables through your Amazon VPC」のCloudformation テンプレートを利用しました。
Table optimaization の作成は、Data Catalog のメニューの Tables を選択、テーブルの自動最適化したいIcebergフォーマットのテーブルを選択すると下記の画面が表示されます。[Table optimaization - new] のタブを選択、[Enable optimaization]ボタンを押します。
Optimaization configuration の Optimaization settings を選択すると画面下が広がり設定できるようになります。 IAM role と、さらに Virtual private cloud (VPC) - optional に先ほど作成したConnectionをプルダウンから選択します。最後に[Enable Optimaization]ボタンを押すと完了です。
少し待つと、Snapshot retention status と Orphan file deletion statusは、実行されstatus が Successになりました。Compaction Status は、削除対象に時間がかかるのでEnableになっています。
まとめ
AWS Glue Data Catalogの Apache Icebergテーブル自動最適化機能がVPC対応したことで、セキュリティを強化しつつデータ管理の効率化が可能になりました。この新機能により、インターネットアクセスを制限する環境でも、特定のVPC内からApache Icebergテーブルの最適化が実行できるようになりました。
AWS Glue Data Catalogの自動最適化機能は、VPC対応によりセキュリティ要件の厳しい環境でもIcebergテーブルのメンテナンスを簡素化します。この機能は、AWS Glueがサポートするすべてのリージョンで利用可能です。
合わせて読みたい